昇腾社区首页
中文
注册
开发者
下载

Ascend HDK接口和命令工具简介

  • npu-smi(NPU System Management Interface)是NPU的设备管理工具,在驱动安装完成后,可以使用该工具查询NPU设备的信息和使用情况,便于用户了解当前NPU的状态,并提供命令用于对NPU进行固件升级、清除设备信息、配置参数和资源复位等操作。驱动安装过程中会默认安装npu-smi工具至“/usr/local/sbin/”和“/usr/local/bin/”路径下。
  • DCMI(DaVinci Card Management Interface)是NPU的设备管理API接口,在驱动安装完成后,可以使用该接口查询NPU设备的信息和使用情况,便于用户了解当前NPU的状态,并提供接口用于对NPU进行固件升级、清除设备信息、配置参数和资源复位等操作。用户可以根据业务需要,调用DCMI接口完成第三方系统二次集成开发。
  • hccn_tool(Huawei Collective Communications Network Tool)是NPU的集群网络管理工具,可以使用该工具设置和获取NPU设备上网口的信息,并持久化NPU设备网口的配置信息,便于用户进行网络初始化、配置优化以及故障排查等工作。驱动安装过程中会默认安装hccn_tool工具,在驱动安装完成后,hccn_tool放置在软连接“/usr/bin/”下,实际路径为“/usr/local/Ascend/driver/tools”。
  • msnpureport工具是NPU的设备导出工具,在驱动安装完成后,可以使用该工具导出Device侧产生的系统类日志和文件,查询和设置Device侧的维测信息,便于用户进行后续的日志分析和问题定位等工作。

用户在使用npu-smi工具、DCMI接口和hccn_tool工具时,对于不同产品的不同命令或接口,在不同的部署场景下支持情况亦不相同,详细情况请参见相关命令或接口的“不同部署场景下的支持情况”表,其对应部署场景分类定义及说明如表1所示。

  • 如果部分部署场景在本文档的相关命令或接口描述中未提及,则表明该产品不涉及此场景,当前未规划。
  • 本文档中“不同部署场景下的支持情况”表中的Y表示支持;N表示不支持;NA表示不涉及,当前未规划此场景。
表1 部署场景分类定义及说明

部署场景分类

子场景分类

子场景说明

物理机场景a

物理机场景(裸机)

NPU设备直接在物理机(裸机)上使用。

物理机+普通容器场景

将物理机的NPU设备映射进普通容器中使用。

物理机+特权容器场景

将物理机的NPU设备映射进特权容器中使用。

虚拟机场景b

直通虚拟机场景

将单个物理NPU设备的资源全部分配给虚拟机使用,该虚拟机独占单个NPU资源。主要涉及整机全部NPU设备直通(整卡直通)、部分NPU设备直通(部分卡直通)、单个NPU设备直通(单卡直通)等不同使用场景。

直通虚拟机+普通容器场景

将单个物理NPU设备的资源全部分配给虚拟机,然后将NPU设备资源映射进该虚拟机创建的普通容器中使用。

直通虚拟机+特权容器场景

将单个物理NPU设备的资源全部分配给虚拟机,然后将NPU设备资源映射进该虚拟机创建的特权容器中使用。

昇腾虚拟化实例c(全称Ascend Virtual Instance,简称为AVI)

物理机+容器AVI场景

在物理机上通过npu-smi工具或DCMI API接口对NPU硬件资源根据用户指定的需求划分出vNPU,将创建的vNPU挂载到容器中使用。

物理机+虚拟机AVI场景

在物理机上通过npu-smi工具或DCMI API接口对NPU硬件资源根据用户指定的需求划分出vNPU,将创建的vNPU分配给虚拟机使用。单个vNPU只能给单个虚拟机使用,但是单个虚拟机可以挂载多个vNPU。

虚拟机+容器AVI场景

在物理机上通过npu-smi或者DCMI API接口对NPU硬件资源根据用户指定的需求划分出vNPU,通过虚拟机挂载指定的vNPU资源,然后在虚拟机内部进一步将创建的vNPU挂载到容器中使用。

直通虚拟机+容器AVI场景

将单个物理NPU设备的资源全部分配给虚拟机后,先在虚拟机上通过npu-smi或者DCMI API接口对NPU资源根据用户指定的需求划分出vNPU,再映射到容器中使用。

a:指在物理机环境中操作NPU资源的场景,包括物理机和物理机+容器。

b:指在虚拟机环境中操作NPU资源的场景,包括直通虚拟机和直通虚拟机+容器。

c:指通过资源虚拟化技术将1个NPU切分成若干个vNPU(虚拟NPU)实例挂载到虚拟机或容器中使用,使得1个NPU同时支持多个计算调度任务。AVI通过算力资源切分的方式,实现了资源虚拟化复用并保证了资源的安全隔离,大大降低了用户使用NPU算力的门槛和成本,并且支持多租户按需进行资源申请或回收管理